Apprentissage d'un espace de concepts de mots pour une nouvelle représentation des données textuelles

نویسندگان

  • Young-Min Kim
  • Jean-François Pessiot
  • Massih-Reza Amini
  • Patrick Gallinari
چکیده

RÉSUMÉ. Dans cet article nous proposons une technique à base d’apprentissage non-supervisé pour la réduction de dimension des données textuelles. Cette technique est basée sur l’hypothèse que les termes co-occurrants dans les mêmes documents avec les mêmes fréquences sont sémantiquement proches. Suivant cette hypothèse les termes sont d’abord regroupés avec l’algorithme CEM qui est une version classifiante de l’algorithme EM. Les documents sont ensuite représentés dans l’espace de ces groupes de termes. Nous jugeons de la pertinence de cette technique de réduction dimensionnelle avec la tâche du clustering de documents. Et nous montrons la validité de notre approche en comparant le résultat de ce clustering avec ceux obtenus dans l’espace sac-de-mots initial et l’espace des groupes de mots induit par l’algorithme PLSA sur deux collections standard de WebKB et de Reuters.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Espaces de représentation multidimensionnels dédiés à la visualisation

Résumé. Dans un système décisionnel, la composante visuelle est importante pour l’analyse en ligne OLAP. Dans cet article, nous proposons une nouvelle approche qui permet d’apporter une solution au problème de visualisation des données engendré par l’éparsité. En se basant sur les résultats d’une analyse des correspondances multiples (ACM), nous tentons d’atténuer l’effet négatif de l’éparsité ...

متن کامل

Une nouvelle approche pour la recherche d'images par le contenu

Résumé. On utilise l’analyse factorielle des correspondances (AFC) pour la recherche d’images par le contenu en s’inspirant directement de son utilisation en analyse des données textuelles (ADT). L’AFC permet ici de réduire les dimensions du problème et de sélectionner des indicateurs pertinents pour la recherche par le contenu. En ADT, l’AFC est appliquée à un tableau de contingence croisant m...

متن کامل

Apprentissage de représentation pour la détection de source dans les réseaux sociaux

RÉSUMÉ. Récemment, divers travaux se sont interessés à la détection de source de diffusion dans les réseaux sociaux : il s’agit de déterminer l’utilisateur à partir duquel une information propagée a initiallement été émise. Dans cet article, nous proposons une nouvelle méthode pour la détection de source de diffusion, basée sur des techniques d’apprentissage de représentation. Plutôt que de s’a...

متن کامل

Un modèle d'espace vectoriel de concepts pour noyaux sémantiques

Résumé. Les noyaux ont été largement utilisés pour le traitement de données textuelles comme mesure de similarité pour des algorithmes tels que les Séparateurs à Vaste Marge (SVM). Le modèle de l’espace vectoriel (VSM) a été amplement utilisé pour la représentation spatiale des documents. Cependant, le VSM est une représentation purement statistique. Dans ce papier, nous présentons un modèle d’...

متن کامل

Une approche de construction d'espaces de représentation multidimensionnels dédiés à la visualisation

Résumé. Dans un système décisionnel, la composante visuelle est importante pour l’analyse en ligne OLAP. Dans cet article, nous proposons une nouvelle approche qui permet d’apporter une solution au problème de visualisation des données engendré par l’éparsité. En se basant sur les résultats d’une analyse des correspondances multiples (ACM), nous tentons d’atténuer l’effet négatif de l’éparsité ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • Document Numérique

دوره 13  شماره 

صفحات  -

تاریخ انتشار 2008